Corpus for Benchmarking Clinical Speech De-identification
Cet article présente le corpus SREDH-AICup, un ensemble de données cliniques bilingues (anglais et mandarin) annoté temporellement avec des millions d'entités d'informations de santé sensibles, conçu pour combler le manque de ressources publiques et faciliter la recherche sur la dé-identification de la parole médicale.